NetFlow数据是许多网络分析师和研究人员使用的众所周知的网络日志格式。与PCAP相比,使用此格式的优点是,它包含的数据较少,隐私侵入性较小,并且更易于收集和处理。但是,较少的数据确实意味着这种格式可能无法捕获重要的网络行为,因为将所有信息汇总到统计信息中。许多研究旨在通过使用机器学习来检测网络中的攻击来克服这一缺点。许多方法都可以用于在使用NetFlow数据来训练机器学习算法之前预处理数据。但是,其中许多方法只是将现有方法应用于数据,而不是考虑网络数据的特定属性。我们认为,对于源自软件系统(例如NetFlow或软件日志)的数据,频率和特征值上下文的相似性比值本身的相似性更为重要。因此,在这项工作中,我们提出了一种编码算法,该算法在处理数据时直接考虑特征值的频率和上下文。可以使用此编码来聚集不同类型的网络行为,从而帮助检测网络中的异常。从监视清洁系统获得的这些群集的窗口中,我们学习了状态机器行为模型以进行异常检测。这些模型非常适合建模NetFlow数据中存在的循环和重复模式。我们在一个新数据集上评估了我们为检测Kubernetes群集和两个著名公共NetFlow数据集中的问题而创建的编码。国家机器模型获得的性能结果与使用更多功能的现有作品相媲美,并且需要清洁和受感染的数据作为培训输入。
translated by 谷歌翻译
Large language models (LLMs) have demonstrated impressive capabilities in natural language understanding and generation, but the quality bar for medical and clinical applications is high. Today, attempts to assess models' clinical knowledge typically rely on automated evaluations on limited benchmarks. There is no standard to evaluate model predictions and reasoning across a breadth of tasks. To address this, we present MultiMedQA, a benchmark combining six existing open question answering datasets spanning professional medical exams, research, and consumer queries; and HealthSearchQA, a new free-response dataset of medical questions searched online. We propose a framework for human evaluation of model answers along multiple axes including factuality, precision, possible harm, and bias. In addition, we evaluate PaLM (a 540-billion parameter LLM) and its instruction-tuned variant, Flan-PaLM, on MultiMedQA. Using a combination of prompting strategies, Flan-PaLM achieves state-of-the-art accuracy on every MultiMedQA multiple-choice dataset (MedQA, MedMCQA, PubMedQA, MMLU clinical topics), including 67.6% accuracy on MedQA (US Medical License Exam questions), surpassing prior state-of-the-art by over 17%. However, human evaluation reveals key gaps in Flan-PaLM responses. To resolve this we introduce instruction prompt tuning, a parameter-efficient approach for aligning LLMs to new domains using a few exemplars. The resulting model, Med-PaLM, performs encouragingly, but remains inferior to clinicians. We show that comprehension, recall of knowledge, and medical reasoning improve with model scale and instruction prompt tuning, suggesting the potential utility of LLMs in medicine. Our human evaluations reveal important limitations of today's models, reinforcing the importance of both evaluation frameworks and method development in creating safe, helpful LLM models for clinical applications.
translated by 谷歌翻译
源代码(MLONCODE)上的机器学习有望改变软件的交付方式。通过挖掘软件伪像之间的上下文和关系,mloncode通过代码自动生成,代码建议,代码自动标记和其他数据驱动的增强功能增强了软件开发人员的功能。对于许多任务中,代码的脚本级别表示足够,但是,在许多情况下,要考虑各种依赖关系和存储库结构的存储库级表示,例如,自动标记存储库具有主题或自动记录的存储库。代码等,用于计算存储库级表示的现有方法受(a)依赖代码的自然语言文档(例如,读书文件)(b)方法/脚本级表示的天真聚集,例如,通过串联或平均值。本文介绍了一个深度神经网络,该网络可直接从源代码中生成可公开可用的GitHub代码存储库的存储库嵌入。主题结合了一种注意机制,该机制将源代码,完整依赖关系图和脚本级别的文本信息投射到密集的存储库级表示中。为了计算存储库级别的表示,局部训练可以预测与存储库相关的主题,该主题是在公开可用的GitHub存储库数据集中,这些存储库与他们的地面真相主题标签一起爬行。我们的实验表明,局部计算的嵌入能够胜过多个基线,包括通过在存储库自动标记的任务下平均或串联来天真地结合方法级表示的基线。
translated by 谷歌翻译
联合学习(FL)是以保护隐私方式在异质客户设备上进行机器学习的框架。迄今为止,大多数FL算法都在多个回合中学习一个“全局”服务器模型。在每回合中,相同的服务器模型都向所有参与的客户端广播,在本地更新,然后跨客户端进行汇总。在这项工作中,我们提出了一个更一般的过程,客户“选择”了发送给他们的值的程序。值得注意的是,这使客户可以在较小的数据依赖性切片上操作。为了使这种实用性,我们概述了原始的联合选择,该选择可以在现实的FL系统中进行特定于客户的选择。我们讨论了如何使用联合选择进行模型培训,并表明它可以导致通信和客户记忆使用情况的急剧减少,从而有可能使模型的训练太大而无法适合处个设备。我们还讨论了联邦选择对隐私和信任的含义,这反过来影响了可能的系统约束和设计。最后,我们讨论有关模型体系结构,隐私保护技术和实用FL系统的开放问题。
translated by 谷歌翻译
为了调节机器学习驱动的系统(ML)系统,当前的审核过程主要集中于检测有害算法偏见。尽管这些策略已被证明具有影响力,但在审计过程中涉及ML驱动系统中伦理的文档中概述的一些价值仍然不足。这种未解决的值主要处理无法轻易量化的上下文因素。在本文中,我们开发了一个基于价值的评估框架,该框架不限于偏见审计,并涵盖了算法系统的重要道德原则。我们的框架提出了值的圆形布置,并具有两个双极尺寸,这些二极管尺寸使共同的动机和潜在的紧张局势明确。为了实现这些高级原则,然后将价值分解为特定的标准及其表现形式。但是,其中一些特定于价值的标准是相互排斥的,需要协商。与仅依靠ML研究人员和从业者的意见的其他一些其他审计框架相反,我们认为有必要包括利益相关者,这些利益相关者表现出各种观点,以系统地谈判和巩固价值和标准紧张局势。为此,我们将利益相关者绘制有不同的见解需求,并为将价值表现传达给他们的量身定制手段。因此,我们通过评估框架为当前的ML审计实践做出了贡献,该实践可视化价值之间的亲密关系和紧张局势,并给出了如何对其进行操作的准则,同时向广泛的利益相关者开放评估和审议过程。
translated by 谷歌翻译
在本文中,我们描述了三星研究的提交菲律宾-Konvergen AI团队为WMT'21大规模多语言翻译任务 - 小轨道2.我们向共享任务提交标准SEQ2Seq变压器模型,没有任何培训或架构技巧,主要依靠我们的数据预处理技术来提高性能。我们的最终提交模型在Flores-101 DevTest集中筹集了22.92平均Bleu,并在比赛的隐藏试验集上获得了22.97平均平均Bleu,整体排名第六。尽管只使用标准变压器,我们的型号在印度尼西亚排名第一的javanese,表明数据预处理的重要事项,如果不是更多的,而不是切割边缘模型架构和训练技术。
translated by 谷歌翻译
在本文中,我们以两种方式改进了低资源菲律宾语言的现有语言资源。首先,我们概述了TLunified DataSet的构建,这是一个大规模预先曝光的语料库,其用作在规模和主题方面对语言的更小的现有预用数据集的改进。其次,我们以罗伯塔预介绍技术预防新的变压器语言模型,取代现有型号培训,培训小型。我们的新Roberta模型在三个基准数据集中的现有菲律宾模型上显示出了显着的改进,平均收益在不同难度的三个分类任务中测试准确性为4.47%。
translated by 谷歌翻译